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基于 交织 预 取 率 的 帮助 线程 预 取 质量 调节 算法 
SCIRE 


(1. 天 津 职业 技术 师范 大 学 信息 技术 工程 学 院 , 天津 300222;2. 北京 理工 大 学 计算 机 学 院 ,北京 100081) 


摘 要 : 预 执行 帮助 线程 在 预 取 过 程 中 需要 进行 动态 预 取 调节 ， 而 传统 静态 枚 举 控 制 参数 值 的 控制 方法 在 预 取 执 行 过 
程 中 保持 固定 不 变 , 从 而 使 得 该 方法 不 能 够 有 效 的 为 主线 程 提供 预 取 质量 保证 (quality ofservice, QoS)。 针 对 该 问题 ， 
提出 了 一 种 基于 交织 预 取 率 的 帮助 线程 预 取 质 量 参 数 调节 方法 。 首 先 ， 对 帮助 线程 的 预 取 QoS 优化 进行 了 建 模 分 析 ; 
其 次 ， 在 前 期 交织 预 取 工 作 的 基础 上 ， 提 出 了 基于 交织 预 取 率 的 帮助 线程 参数 值 调节 算法 ; 最 后 ， 在 真实 的 商用 多 核 
平台 上 对 所 提出 帮助 线程 预 取 调节 算法 进行 了 评测 和 分 析 。 实 验 结果 是 所 提出 的 帮助 线程 预 取 调 节 算 法 使 得 基准 测试 
程序 的 几何 平均 性 能 加 速 比 为 1.114， nn dd 
帮助 线程 预 取 质 量 调节 算法 解决 了 帮助 线程 预 取 过 程 中 的 参数 值 自动 调节 问题 ， 算 法 不 需 静 态 枚 举 参数 值 便 可 以 快速 
获得 与 之 相近 似 的 预 取 性 能 提升 。 
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Abstract: Pre-execution helper threads were needed to perform dynamic prefetching in the prefetch process. However, the 


traditional static enumeration parameter value was keep constant during in the execution of prefetching, so that the method can 
not effectively provide prefetching Quality. To solve this problem, a method of prefetching quality control based on prefetching 
rate was proposed. Firstly, the model of helper thread prefetching QoS optimization is analyzed. Secondly, based on the previous 
work, this paper puts forward the algorithm of parameter value adjustment based on prefetching rate. In the end, the algorithm 
is evaluated and analyzed on the real commercial multi-core platform. Experimental results were as follows. With the proposed 
prefetching adjusting algorithm, the geometric average performance speed up of the benchmarks was 1.114. It was similar to the 
traditional static enumeration method's geometric average performance speed up which was 1.135. The experimental results 
show that the proposed algorithm can solve the helper thread prefetching quality adjust problem, as well can quickly obtain the 
similar prefetching performance compared with the static enumeration method. 
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帮助 线程 预 取 技 术 串 来 隐藏 长 延迟 指令 的 访 存 延 迟 。 基 于 预 执 

行 思想 的 帮助 线程 技术 能 够 有 效 的 将 主线 程 所 需要 的 数据 从 主 
随 着 云 计算 和 大 数据 技术 的 发 展 ， 高 性 能 计算 系统 的 存储 ” 存 中 推送 到 多 核 平 台 的 最 后 一 级 缓存 中 ， 将 程序 的 非 连续 局 部 
性 能 已 经 成 为 制约 大 数据 应 用 处 理性 能 提高 的 重要 瓶颈 。 大 数 ”性 转换 为 算法 局 部 性 ， 从 而 提高 应 用 程序 的 性 能 。 然 而 通过 手 
据 应 用 程序 在 算法 执行 过 程 中 需要 大 量 的 数据 访问 操作 ， 其 数 。” 工 枚 举 选择 控制 参数 值 的 过 程 是 一 项 繁杂 耗 时 的 工作 ， 因 此 实 
据 访 问 模式 呈现 出 非 规 则 和 非 一 致 性 特征 ， 致 使 传统 的 软件 硬 — 现 帮助 线程 控制 参数 值 的 实时 选择 和 自 适 应 调节 是 解决 上 述 问 
件 预 取 方 案 在 这 种 应 用 场景 下 失效 。 针 对 非 规 则 访 存 行为 的 大 题 的 关键 。 
数据 应 用 程序 ， 现 有 的 工作 提出 采用 基于 多 参数 控制 的 预 执 行 本 文 在 前 期 工作 的 
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的 自 适 应 调节 展开 研究 工作 。 针 对 帮助 线程 预 取 执 行 过 程 中 的 


实时 控制 问题 ,提出 一 个 基于 预 取 率 的 帮助 线程 参数 调节 算法 ， 
在 多 核 平台 上 对 所 提出 的 算法 


明 ， 提 出 的 帮助 线程 预 取 参 数 动态 调节 算法 无 须 采 | 


进行 了 系统 评测 。 实 验 结果 表 
手动 枚 举 


参数 值 即 可 获得 与 手动 枚 方法 相近 似 的 性 能 提升 。 
1 ”相关 工作 


随 着 多 核 处 理 器 的 广泛 普及 ， 基 于 线程 级 的 前 瞻 执 行 技术 


引起 了 学 术 界 的 广泛 关注 5 。 硬件 实现 方法 需要 额 儿 


的 更 改 硬 


件 来 实时 的 产生 指令 执行 的 动态 片断 。 软 件 实现 方法 主要 在 源 
码 级 和 二 级 制 级 对 串 行程 序 进行 优化 ， 这 些 软件 实现 方案 需要 


离线 的 剖析 程序 所 
执行 技术 引入 到 真实 的 Intel 
提出 了 两 种 机 制 一 是 基于 循环 的 同步 ， 另 外 一 种 是 
基于 采样 的 同步 Song 等 人 0 提出 了 一 个 编译 框架 用 于 帮助 线 
自动 构造 。Jung 等 人 [ 
线程 同步 机 制 。Kamruzzaman 等 人 0 提出 一 种 用 于 


同步 问题 ， 


程 代 码 的 


行 语义 信息 。Kim 等 人 外 首次 将 帮助 线程 预 
同时 多 线程 平台 , 针对 线程 之 间 的 


0 提出 一 种 基于 PV 


Hs HT 
V RUD 


案 ， 帮 助 线程 在 空闲 核 执行 数据 预 取 ， 在 执行 一 段 距离 之 后 ， 
帮助 线程 和 主线 程 互 换 CPU 处 理 核 , 主线 程 迁 移 到 帮助 线程 所 


在 的 CPU 处 


理 核 享受 帮助 线程 预 取 带 来 的 获 益 , 帮助 线程 迁移 


到 主线 程 所 在 处 理 


核 继续 进行 数据 预 取 操作 。 该 方案 是 将 正在 


执行 的 程序 划分 成 等 长 的 块 ， 块 的 大 小 预先 
析 来 设 定 ,Lu 等 人 tI 利用 ADORE 动态 优化 机 


通过 程序 的 离线 剖 
架 实 现 帮助 线程 


i 


数据 预 取 的 目 
节 技 术 ， 通 过 实时 监测 硬件 性 能 计数 器 对 的 带 有 前 瞻 线 程 执 


E 
HJ. Luo 等 人 04 提 出 一 种 对 前 瞻 线 程 的 动态 性 能 


行 时 的 程序 进行 性 能 监测 ， 


实时 评估 出 原 有 串 行 程序 的 执行 


时 间 进 而 判断 
程 作出 不 同 的 决策 。Fei 等 人 05 在 交织 预 取 帮助 
提出 了 一 种 梯度 优化 帮助 线程 控制 参数 的 方法 。 
116.171 针 对 多 核 平 台 的 缓存 主 存 等 共享 资源 的 使 用 提出 一 种 基于 


前 瞻 执 行 线程 是 否 有 效 ， 根 据 评估 结果 对 前 颇 线 
线程 的 基础 上 


Andrew 等 
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KR, F: 基于 交织 预 取 率 的 帮助 线程 预 取 质 量 调节 算法 


实现 对 帮助 线程 预 取 行 为 的 调节 和 控制 。 为 了 便于 
给 出 帮助 线程 预 取 QoS 策略 
假设 Q 是 一 个 包含 帮助 线程 预 上 


(Qi) ,i=1,2,3...m。 
P, B 分 别 代表 交织 


Qi 为 一 个 帮助 线程 预 上 


优化 问题 的 


IS. 下 面 


区 式 化 描述 。 


区 QoS 策略 的 集合 ，Q= 
其 中 QF= (K, P, B) 是 一 个 三 元 组 ， 玉 ， 


预 取 帮 助 线程 的 三 个 控制 参数 取 值 ， 本文 称 


区 QoS 策略 。 其 9 


PK 表示 帮助 线程 领先 
主线 程 的 预 取 距离 ， 以 热点 循环 数目 表示 ; P 表示 帮助 线程 开 


始 为 主线 程 预 取 的 工作 量 ， 也 是 以 循环 数 表 示 ; B 表示 帮助 线 


程 多 长 时 间 与 主线 程 同步 一 次 ， 同 相 
的 是 避免 帮助 线程 偏离 主线 程 的 执行 路 径 ， 即 落后 或 过 度 


要 


领先 于 主线 程 的 执行 。 
定义 1 交织 预 取 率 R,。 帮 助 线程 中 预 取 率 定义 为 一 个 


Block 数据 块 内 帮助 线程 预 取 工作 量 大 小 所 
Rp = P/ (K + P), Rp € (0,1) 。 所 谓 交 织 预 取 是 指 当主 线程 进入 热 
点 循环 后 ， 为 了 避免 帮助 线程 滞后 于 主线 程 ， 帮 助 线程 并 不 是 
预 取 所 有 的 热点 数据 ， 而 是 跳跃 性 
下 一 部 分 热点 数据 的 访问 
帮助 线程 共同 分 担 长 延迟 访 存 指令 ， 二 者 的 访 存 数 据 流 相互 交 
， 并 行 执行 ， 因 ] 


Nm 


mi 
N 


以 循环 数 表示 ， 同 步 的 主 


5 的 比例 ， 即 


的 为 主线 程 预 取 数据 ， 而 留 
主线 程 来 访问 ， 从 而 


使 得 主线 程 和 


比 称 为 交织 预 取 。 
从 预 取 率 的 定义 可 以 看 出 ， 当 预 取 距离 已 知 时 ， 可 以 通过 
预 取 率 Ry 调节 帮助 线程 预 取 工作 量 的 大 小 。 


定义 2 TC QoS 评价 函数 。 


Oi 


用 预 


评价 函数 的 输入 参数 有 两 
外 一 个 是 热点 模块 执行 样本 Sio PORRE i AREN 
取 QoS 策略 Qi 后 所 得 到 
段 设 主线 程 热 点 模块 是 


= Eval(Qi, 


个 
; 


的 了 


Si) 2 IPC(1 € i X m) 
个 是 预 取 QoS 策略 Qi, 5H 


期 内 应 


线程 性 能 指标 。 


模块 的 指令 流 工 划分 成 长 度 等 于 U 的 指令 序列 ， 即 T= {S} 


PID (proportion integration differentiation, PID) 控制 调节 思想 


的 应 用 程序 QoS 技术 。 该 技术 是 一 种 基于 PID 的 控制 机 制 ， 
过 硬件 性 能 计数 器 实时 监测 应 ) 
然后 通过 降低 主 频 、 时 钟 调制 等 方法 限制 应 


程序 对 共享 资源 的 使 用 ' 
程序 对 共享 资源 


的 使 用 


， 从 i 
QoS 保证 。Luo 和 Andrew 


j 为 运行 在 多 核 平台 上 不 同类 型 的 应 用 程序 提供 
的 工作 对 实现 帮助 线程 预 取 QoS 的 


动态 调节 提供 了 可 供 借鉴 的 技术 和 思想 。 
综 上 所 述 ， 传 统 帮 助 线程 研究 对 于 帮助 线程 的 控制 参数 值 


都 是 通过 对 串 行 程序 进行 离线 剖析 之 后 赁 经 验 设 定 。 这 种 人 工 


B 
选取 参数 值 上 


二 0,12... 工 ， 其 中 | Si | =U，Si 为 热点 模块 采样 执行 样本 。 


帮助 线程 预 取 QoS 优化 可 以 表示 为 
Max{ Eval (Qi, S) (1 € i < m) 


即 在 热点 模块 的 指令 流 中 ， 


为 热点 模块 采样 执 


fih 


块 执行 样本 5; 采 


的 交织 预 取 QoS 5& 


执行 样本 s， 的 性 能 评测 ，@ 


过程 需 要 凭借 经 验 ， 


并 且 工 作 量 巨大 ， 不 大 适用 


于 实际 应 用 。 


本 文 将 就 交织 预 取 帮助 线程 的 预 取 控 制 参数 K, 


P 和 B 的 取 值 在 线 取 值 优选 和 调节 开展 研究 工作 ， 实 现实 时 自 


适应 参数 值 选择 的 调节 算 沪 


YE. 


2 ”帮助 线程 预 取 QoS 优化 模型 


帮助 线程 引入 预 取 距离 K、 预 取 大 小 P 和 同步 块 数量 B 来 


定义 3 


四 
ZR Oi 


了 每 条 指令 的 时 钟 数 越 低 ， 了 
X g, Ze PUDUUS 
是 预 取 调节 框 
6ij=0; 一 0， 称 为 从 预 


各。 


通过 选择 长 度 为 U 
FE 本 ， 在 程序 执行 过 程 中 对 每 一 个 热点 模 
相应 的 预 取 QoS 策略 0;:， 采 样 结束 后 通过 


的 指令 序列 


评价 函数 计算 该 采样 样本 的 CPr， 最 后 选择 出 


ERAK, 说 明 主线 程 所 在 处 理 
线程 的 性 


线程 性 能 的 改变 ， 


ERIT o 


2 
H 


有 最 小 CPI fH 


器 执 


E 架 对 采样 


架 对 采样 样本 S; 
取 QoS 策略 Q: 到 预 取 QoS 策略 Q; 时 主 


其 中 i=1,2,..., j=1,2,...。 


QoS 策略 对 两 个 热点 模块 采样 村 
IE Q; 优先 于 预 取 QoS 策略 Qi ; Æ 6; 50, 


则 表示 预 取 QoS $R 


样本 s, 的 性 能 评测 结 
的 性 能 评测 结果 ， 则 


£i 表示 不 同 的 预 取 


# 本 性 能 提升 的 差别 。 若 e; 70, 
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表示 两 个 预 取 QoS 策略 对 主线 程 性 能 提升 能 力 相同 ; 若 e; <0， 
则 表示 预 取 QoS 策略 Q, 优先 于 预 取 QoS HEK Q; o 

定义 4 热点 模块 采样 本 从 so Sls. 分别 采用 预 取 QoS. 策 
Wt Qo 到 Q。 之 后 , 如 果 go > 0,612» 0.6.» 0， 主 线程 性 能 提 
升 具有 改进 趋势 ， 相反 ， F £a <0, £12 «0, 6c «0» 表示 主线 
程 性 能 提升 具有 恶化 趋势 。 其 中 称 c 为 性 能 渐变 趋势 闷 值 。 


3 ”基于 预 取 率 的 帮助 线程 调节 算法 


帮助 线程 预 取 调 节 的 实质 是 通过 调整 帮助 线程 的 预 取 工 作 


量 来 实现 控制 帮助 线程 预 取 行 为 的 目的 。 预 取 距 离开 和 预 取 工 
EE P 是 两 个 相关 联 的 变量 ， 二 者 的 关系 可 以 用 预 取 率 R 来 


和 述 。 在 既定 的 预 取 距离 下 ， 总 能 找到 一 个 恰当 的 R, 值 使 得 主 
线程 的 性 能 相对 最 优 。 传 统 的 分 别 调节 单个 变量 的 枚 举 方法 使 
得 算法 的 收敛 速度 很 慢 ， 不 能 够 快速 找到 相对 局 部 最 优 的 参数 
值 组 合 。 本 节 将 介绍 一 个 基于 预 取 率 Ry 的 帮助 线程 预 取 调节 算 
法 , 将 即 定 范 围 内 的 参数 值 根据 预 取 率 Ry 快速 的 遍历 生成 一 次 ， 
然后 将 生成 的 参数 值 组 合作 为 一 个 预 取 QoS 策略 应 用 于 帮助 线 
程 ， 在 参数 训练 期 对 该 策略 的 性 能 进行 评价 。 
3.1 确定 参数 值 上 限 
热点 模块 中 热 循 环 的 外 层 循环 次 数 限 定 了 KPB 参数 的 最 
大 取 值 。 假 设 热 循环 的 外 层 循 环 次 数 是 Lmx， 则 KK,，P 了 和 B 取 
值 满足 下 列 约 束 条 件 : 
a0 SKSLa 0SPSL-K, 0SB* (K+) 
bSBS (Lmar/ (K+P)) 
针对 交织 预 取 帮助 线程 ，Huang0819] 等 人 提出 了 一 种 基于 
缓存 相关 度 的 预 取 距离 评估 策略 , 主要 用 于 评估 预 取 距 离 K 的 
取 值 范围 。 缓 存 相关 度 是 将 热点 循环 映射 到 多 核 平台 最 后 一 级 
共享 缓存 的 组 相 联 度 来 评估 预 取 距离 的 一 个 概念 。 其 核心 思想 
是 对 于 一 个 热点 循环 ， 如 果 执 行 到 第 j 次 循环 后 ， 热 点 循环 中 
的 数据 己 经 将 缓存 冲 满 ， 如 果 再 继续 访问 热点 循环 的 数据 将 会 
引发 缓存 蔡 换 ， 此 时 称 热点 循环 相对 于 共享 缓存 的 缓存 相关 度 
是 j。 交 织 预 取 帮助 线程 的 核心 思想 是 由 主线 程 与 帮助 线程 的 
共同 分 担 热点 模块 的 LLC 缓存 缺失 。 


算法 3-1: 基于 预 取 率 的 帮助 线程 预 取 调 节 算 法 

输入 :人 Ry', CLAR, SYNC) 

输出 :(K,P) 

01: init parameter K-K', Ry-Ry'; 

02: If(SYNC--1) then — //ZP IER I 

03: B=]; 

04: ”if(CLAR>0) then /1/CLAR 大 于 0 表示 主线 程 计 算 工作 量 足 够 
05: K=0; 


4 


E Lmax 


06: if (Pin [0, P upper limit]) then 

07: P=P+ Step; 

08: Return K,P,B; 

09: endif 
0: else “/CLAR 等 于 0， 表 示 主 线程 计算 工作 量 小 
1 if (R in | (0, 1? ) then 
2 P=R,*K/(1-R,); 
3: R,=R,+0.1; /调整 预 取 比 例 
4: return K,P.B; /在 预 取 率 小 于 1 之 前 只 计算 P， 开 不 变 
5: else // 预 取 率 大 于 1 表示 当前 K 值 下 参数 生成 完毕 
6 if (Kin [0, K upper limit]) then 
T K-K-Step; — /调整 K 值 
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KER, 
18: Rp=0.1; // 重 置 预 取 率 
19: P-R,*K/(I-Ry); 
20: endif 
21: endif 
22: Endif 


23: Else// 同步 块 不 为 1， 在 当前 已 经 找到 的 K 和 P 基 础 上 需要 调整 同步 参 


24: If (B « B upper limit ) then 
25: B=B+]1; 
26: return K,P.B; 
2T: Endif 
28: Endif 
假设 帮助 线程 最 多 可 领先 主线 程 K 个 循环 ， 当 主线 程 完 
成 前 Ke 个 循环 的 热点 数据 访问 时 ， 由 于 帮助 线程 相对 于 主线 


程 代 码 量 少 ， 帮 助 线程 至 少 也 预 取 了 Ka 个 循环 的 热点 数据 。 
如 果 此 时 2x*Kws 超过 了 缓存 相关 度 jo 那么 帮助 线程 后 续 对 热点 
数据 的 预 取 将 可 能 导致 缓存 污染 发 生 . 因 此 KK 应 该 小 于 等 于 j/2 
OR Kw=j/2)， 此 理论 假设 是 帮助 线程 与 主线 程 共享 分 担 LLC 
缓存 缺失 指令 , 因此 , 此刻 帮 助 线程 的 预 取 大 小 P 是 运行 了 Ki 
个 热点 数据 ， 因 此 Pw=j/2。 

缓存 相关 度 可 以 通过 Profiling 实验 的 方法 得 到 。 根 据 组 
存 相关 度 的 思想 , 预 取 距离 KR 和 P 还 可 以 通过 静态 的 方式 预测 。 
假设 热点 循环 中 每 个 热点 循环 所 要 访问 的 缓存 缺失 数据 的 大 小 
为 Loopsize。，LLC 共享 缓存 的 容量 那么 
Ks (Cache; Loopsize) /2。 静态 预测 的 方法 主要 基于 共享 缓存 
的 容量 划分 为 两 部 分 ， 分 别 由 帮助 线程 和 主线 程 共享 ， 如 果 主 
线程 中 热点 循环 数 L 超 过 了 (Cachesiss/ Loopsizo) /2 时 缓存 已 经 充 
满 , 此 时 帮助 线程 再 向 前 预 取 数 据 会 发 生 缓存 污染 , 因此 Kw 和 
P. 参数 值 的 上 限 设 定 为 (Cachesise/Loopsizo) /2。 

同步 参数 B 表示 同步 距离 ， 即 多 少 个 Block 块 同步 一 次 ,一 
般 设置 为 1， 即 每 个 Block 块 同步 一 次 ， 参 数 B 的 最 大 上 限 值 
为 (Lr / GP). 
3.20 ”基于 预 取 率 的 帮助 线程 预 取 调节 算法 
帮助 线程 预 取 率 Rp 用 来 调整 帮助 线程 预 取 行为 ， 在 既定 K 值 
， 通 过 遍历 预 取 率 Rp 会 大 大 缩短 参数 值 的 寻 优 时 间 。Rp 的 
取 值 范围 是 (0，1)， 预 取 大 小 P 可 以 通过 公式 P=Rp*K/(1-Rp) 
计算 得 出 。 参 数值 产生 器 的 算法 如 算法 3-1 所 示 。 

算法 3-1 中 对 于 参数 值 的 生成 分 为 几 种 情况 : 

a) 默认 情况 下 参数 B=1， 即 每 个 块 同 步 一 次 。 

b) CYLR 标志 着 主线 程 计算 工作 量 的 大 小 ， 如 果 CLAR>0 表 
示 主 线程 具有 足够 工作 量 ， 在 参数 生成 时 取 K 值 为 0， 调 整 P 
值 即 可 。 

c) WR CLAR 标志 为 0 ， 表 示 主 线程 工作 量 不 足 ， 需 要 同 
时 调整 参数 k A Po KA P 的 调整 是 基于 预 取 率 的 遍历 。 主 要 
过 程 是 先 指定 K 值 ， 然 后 计算 当前 X 值 下 Rp 值 变化 时 生成 相 
应 的 P 值 返回 。 之 后 ， 预 取 率 重 置 为 0,，K 值 增加 步 长 STEP 为 
K”， 计 算 当 前 K” 值 时 ， 根 据 Rp 值 计算 相 应 的 P 值 返回 。 

d) SYNC 标志 表示 是 否 调节 同步 参数 B， 一 般 同 步 块 数量 
设置 为 1， 即 B=1。 如 果 SYNC 标志 不 为 1， 表 示 需 要 在 当前 k 
TU P 的 基础 上 增 大 同步 距离 ， 只 调节 参数 B。 假 设 帮助 线程 预 
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HX QoS 策略 个 数 用 Poiley num 表示 ， 热 点 模块 执行 样本 的 大 K2 是 给 出 了 测试 程序 的 输入 集 和 热点 模块 。 表 2 的 最 后 一 列 
小 为 U， 每 个 采样 样本 用 于 评测 一 个 预 取 QoS 策略 ， 因 此 帮助 ”为 预 取 帮助 线程 通过 手动 设置 的 最 好 参数 值 。 除 
预 取 QoS 策略 训练 期 总 样本 大 小 为 Policy_numxsU, 训练 期 总 样 。 426. Libquantum 之 外 , 其 他 基准 测试 程序 输入 集 均 采 用 参考 输 
FRK, 留 给 帮助 预 取 预 取 优化 可 利用 的 空间 就 会 变 小 ,因此 ， 入 集 。 将 动态 参数 调节 与 静态 预 取 以 及 传统 PV" 方法 的 帮助 线 
预 取 参数 调节 算法 要 能 够 快速 收敛 ， 需 要 对 生成 参数 值 的 数量 。 程 进 行 了 比较 。 

改 一 定 的 限制 。 


4 ”实验 评测 与 分 析 


K1 Q6600 实验 平台 配置 


Processor Intel Core 2 Quad Processor Q6600 
41 实验 平台 与 测试 程序 Memory 2 GB (DDR 667, non-ECC) 

在 真实 的 商业 机 器 上 验证 和 评测 帮助 线程 预 取 调 节 算 法 。 L1 D-Cache 32 KB*4 8 set-association cache line 64 bytes 
实验 平台 使 用 Intel Core 2 Quard Q6600 处 理 器 ， 系 统 详 旨 Ll I-Cache 32 KB*4 8 set-association cache line 64 bytes 
配置 如 表 1 所 示 。 通 过 Linux Affinity 接口 将 主线 程 和 帮助 L2 Cache 4096 KB*2 16 set-association cache line 64 bytes 
线程 绑 定 在 固定 的 CPU 处 理 核 上 。Q6600 的 四 个 CPU 处 理 核 的 FSB Speed 1066 MHz 
硬件 预 取 器 处 于 打开 状态 。 Compiler Gcc version 4.3.0 -02 

基准 测试 程序 采用 了 7 个 科学 计算 测试 程序 分 别 是 Mst、 0S Fedora 9 with kernel 2.6.34 


Em3d.Tsp.Health,SPEC CPU 2006 中 的 Mcf、Gcc 和 Libquantum。 


表 2 基准 测试 程序 及 预 取 控制 参数 值 


基准 测试 程序 来 源 数据 输入 集 热点 模块 交织 预 取 手动 参数 (K-P-B) 
Refresh potential 24—24-nosyn 
429.Mcf SPEC2006 Ref/inp.in 
Primal bea mpp 5-290-nosyn 
403.Gcc SPEC2006 Ref/166.i Reg is remote constant p 192—50-nosyn 
quantum cnot 8800—5800-1 
462. 
SPEC2006 365 26 quantum sigma x 8800—5800-1 
Libquantum 
quantum toffoli 8800—5800-1 
Mst Olden 10000 1 HashLookup 90—45-1 
Em3d Olden 400000 128 75 1 Fill from fields 0—-10-1 
Tsp Olden 10,000,000 Merge 160—50-1 
5 levels, Check patients waiting 100—30-nosyn 
Health Olden 
5000 iters 
33 程序 热点 模块 被 调用 情况 及 参数 值 初 值 信息 自动 选择 参数 值 的 交织 预 取 方法 为 1. 114, 而 传统 PV 方法 的 几 
x — 所 属 测试 ”被 调 预 取 距离 K 的 | 何平 均 性 能 加 速 比 为 1. 020。 采 用 自动 选择 参数 值 的 方法 ， 与 
Ne — ne. — d im KOE 手动 选择 参数 值 的 方法 性 能 比较 接近 ， 其 性 能 差异 在 可 接受 的 
Miu. a4 7$» - 7 范围 之 内 。 与 手动 设置 参数 值 方式 的 帮助 线程 相 比 ， 帮 助 线程 
i sew ond - ii 预 取 的 实时 参数 值 调节 的 主要 区 别 在 于 存在 着 参数 值 训练 期 和 
oe on i 实时 采样 的 开销 。 但 是 当 问 题 的 规模 变 大 时 ， 实 时 参数 值 选择 
方式 和 手动 方式 差距 很 小 。 例 如 Mef 的 串 行程 序 运 行 时 间 超 过 
4.2 ”实验 结果 与 分 析 了 400 秒 ， 通 过 实时 采样 动态 调节 帮助 线程 参数 值 方法 使 得 主 
4.2.1 帮助 线程 预 取 调 节 评 测 线程 的 加 速 比 为 1. 226， 手 动 设置 参数 值 的 方法 主线 程 的 性 能 


为 了 消除 程序 运行 过 程 中 系统 干扰 因素 ， 所 有 的 测试 程序 ”加 速 比 为 1.232。 
运行 了 7 次 ， 取 7 次 运行 时 间 的 中 位 数 做 为 最 终 评 测 结果 。 图 4.2.2 调节 算法 对 预 取 的 性 能 影响 及 分 析 
1 所 示 是 所 有 测试 程序 以 原始 串 行程 序 为 基准 归 一 化 后 的 执行 算法 3-1 所 示 的 参数 值 调 节 算法 主要 思想 是 基于 在 既定 K 
时 间 ， 用 HPCF 代表 所 提出 的 预 取 调节 框架 。 EF, 基于 预 取 率 Rp 计算 帮助 线程 的 预 取 大 小 P。 算 法 3-1 中 
与 传统 PV 帮助 线程 方法 相 比 ， 手 动 方式 交织 预 取 帮 助 线 。 需要 确定 的 信息 主要 包括 预 取 距离 K 的 上 界 KS. PUDOR Rp 的 
程 方法 效果 最 好 ， 各 个 测试 程序 的 平均 性 能 加 速 比 为 1. 135， 步 长 以 及 参数 值 生成 过 程 中 的 增 量 步 长 Keo ZA K 的 上 限 
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Kstep 


两 个 变量 的 步 长 都 决定 着 参数 值 产生 器 生成 参数 值 的 数量 。 


进行 


Normalized Execution Time 


以 通过 
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于 缓存 相关 度 的 性 
决定 着 参数 值 产生 器 算法 如 何 对 参数 K 取 值 范围 
划分 ，Rp 决定 着 预 取 距离 与 预 取 大 小 之 间 的 比例 关系 ， 这 


能 剖析 方法 得 到 Ke 的 取 值 。 
LOs Kax] 


Brig ØSHTP_static 口 HPCF_nofeed EIPV prefetch 


Mst 


图 1 动态 调节 、 静 态 选 择 参数 与 传统 PV 方法 的 预 取 性 能 比较 


ME de ota tn 
提升 效果 明显 ， 因 此 本 节 将 以 这 详细 
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影响 。 表 3 是 
的 初 值 及 上 限 。 预 取 调 节 框 架 参 数值 产生 算法 
将 预 取 距离 K 的 


个 基准 测试 程 语 热点 模块 被 调 


情况 及 参数 K 


的 执行 过 程 是 
取信 范围 CO, Kal 以 IG 为 步 长 划分 万 等 


的 段 , 每 一 段 选 择 一 个 kK 值 , 然后 根据 预 取 率 Rp 的 变化 产生 参 
数 P。 在 初始 实现 的 算法 中 Rp 的 取 值 是 从 0. 1 到 0.9，Rp 的 步 
长 选择 为 0.1， 即 针对 每 个 既定 的 预 取 距离 K 值 生成 9 组 (Kk， 


P) 组 合 参 


值 产生 器 4 


市 


数值 。 在 此 只 讨论 Ks 步 长 对 预 取 调节 框架 性 能 的 影 
Wi. 在 的 初 值 Kinis 


ER Ke 和 步 长 Ke 给 定 的 情况 下 ， 参 数 


成 的 参数 值 组 合 数量 为 Pan (Kaar Kini) / Kos) X9。 
图 2^4 是 Kiw 取 不 同步 长 时 Mst, Mef 和 Em3d 程序 应 用 不 


反馈 机 制 的 预 取 调节 框架 后 的 性 能 加 速 比 。 

1.55 800 

- 一 一 加 速 比 -= 参数 组 全 数 ob 
sc E 
E: s 
B E 

图 2 在 不 同 Kstep 步 长 时 Mst 程序 性 能 加 速 比 
13 350 
i 一 一 加 速 比 —— 参数 组 合 数 | 300 
$1999 53-95-94 äl 
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Em3d 程序 性 能 加 速 比 


从 三 个 图 中 可 以 看 出 ， 随 着 参数 K 步 长 的 增 大 ， 预 取 调 节 


产生 的 | 


EEG 


帮助 线程 的 参数 值 组 合 数 会 逐 
Ks, 增 大 到 一 定 值 


个 K 值 ， 因 为 再 


步 减少 。 当 步 长 
后 ， 参 数值 产生 器 在 生成 和 值 时 ， 只 会 有 


增加 步 长 就 超出 了 值 的 上 限 Ks。 例如 图 2 


中 ， d d 
做 为 K 值 ， 
样 ， 图 3 中 ， Mc 


长 超过 1600 时 , 预 取 调 节 框 架 只 是 以 (Ke+Kse) 
过 变化 Rp 产生 9 组 参数 值 做 为 候选 参数 值 。 同 
f 程序 中 Kw 超过 750 时 ， 参 数值 产生 器 只 会 


产生 一 个 K 值 ， 相 应 Rp 变化 的 参数 值 组 合 为 9 组 。 因 此 ，Kse 


步 长 不 能 选取 过 大 ， 过 大 的 步 长 导致 候选 参数 值 集 变 小 ， 


失去 


了 得 到 局 部 最 优 参数 值 的 机 会 。 


三 个 测试 程序 中 ， 
大 ， 程 序 性 能 加 速 比 有 下 降 的 趋势 ， 原 因 在 于 参数 值 生成 器 生 
成 参数 值 组 合 数 少 ， om 


是 当 Kass RENE, 


E & FEE. 如 图 2 中 , Mst FE 
时 ,在 KK 值 的 上 限 3150 内 会 有 


步 长 为 40 


除 Em3d 外 ,其 余 两 个 程序 随 着 Ksi 的 增 


不 是 局 部 最 优 参 数值 。 但 
由 于 生成 的 参数 值 过 多 ， 从 而 增长 参数 值 
序 在 K 值 
78 个 值 分 区 段 ， 


相应 的 参数 值 产生 器 生成 参数 值 组 合 数 达 到 702 组 。 假 设 在 参 


数值 初 选 阶段 


以 热点 模块 的 1 次 调用 为 采样 样 


本 的 话 ,需要 702 


次 热点 模块 调用 
78 组 参数 值 组 合 


如 果 增 大 采样 样本 的 大 小 为 10 次 热点 模块 调 


才能 完 > Ay 


能 完成 第 一 阶段 参数 值 的 训练 ， 从 而 选择 出 
参与 第 二 阶段 参数 值 评估 。 在 参数 值 复 选 阶段 ， 
JH. 35A X 


We 


nn 
为 步 长 较 小 时 参数 值 训 练 
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帮助 线程 预 


取 策 略 引 入 了 预 取 昌 
大 小 B 三 个 控制 参数 ， 


样本 训练 。 bed Kstep 为 40 时 ， 总 共 需 要 
则 用 来 训练 参数 值 .而 从 表 3 中 看 到 ， 
一 共 被 调用 了 10000 次 ， 因 此 参数 值 训练 


期 过 长 而 受到 影响 。 


E 离 K、 预 取 大 小 P 和 同步 
入 和 控制 帮助 线程 的 预 取 行 


主要 用 于 调 


为 。KPB 三 参数 


用 凭 经 验 人 工 选 
本 文 提出 


的 取 值 搜索 空间 通常 4 
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实验 结果 表明 ， 提 出 的 帮助 线程 自 适 应 预 取 框 架 不 


需 手 工 枚 举 参数 值 便 可 以 快速 获得 与 人 工 枚 举 方法 相近 似 的 性 
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